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广电 监管 数据 资产 常理 系 统 的 关键 技术 及 实现 


摘 要 : 广播 电视 监管 工作 中 的 相关 数据 已 经 累积 到 相当 多 的 程度 ， 传 统 的 存储 和 数据 处 理 技术 体系 的 建设 维护 越 来 越 不 能 
适应 数据 量 增长 速度 和 业务 上 的 需求 ， 在 保证 原 有 系统 平稳 运行 的 前 提 下 ， 非 常 需要 利用 新 的 技术 体系 对 数据 进行 迁移 、 扩 
容 和 备份 ， 以 Hadoop 为 代表 的 开源 大 数据 处 理 和 存储 软件 框架 给 我 们 提供 了 一 套 可 行 的 方案 。 本 文 依据 数据 资产 管理 系统 
的 实际 建设 经 验 ， 对 其 中 的 关键 技术 和 建设 过 程 进行 分 析 和 介绍 。 
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文 炎 至 洋 

前 言 录音 录像 保存 时 间 很 有 限 。 在 过 去 的 十 几 年 中 ， 大 规模 


广播 电视 监管 事业 经 历 了 从 模拟 到 数字 、 从 地 面 到 ”海量 数据 的 存储 和 处 理 方案 在 商业 公司 和 开源 软件 社区 
卫星 、 从 单机 到 网 络 等 一 系列 技术 体系 的 重大 变革 , 随 ”中 涌现 出 来 ， 这 源 于 互联 网 的 发 展 导 致 互联 网 公司 迫切 
着 技术 的 不 断 发 展 ， 广 播 电视 节目 的 频率 数 、 频 道 数 、 需要 发 展 适 合 于 大 数据 环境 下 的 全 新 技术 体系 ， 达 到 低 
播 出 时 长 也 在 快速 增加 , 开路 电视 、 有 线 电视 、 卫 星 电视 、 ”成 本 、 易 扩展 、 并 发 性 高 、 兼 容 不 同类 型 数据 的 目的 。 
IPTV 等 多 种 传输 方式 也 在 快速 出 现 ， 因 此 ,监管 工作 所 现实 的 应 用 需求 使 得 一 些 技术 方案 快速 成 熟 ， 这 样 就 为 
面临 的 数据 量 在 急剧 膨胀 ， 早 期 工作 中 是 以 结构 化 的 业 广播 电视 监管 工作 提供 了 可 行 的 解决 方案 ， 大 量 音 视频 
务 数据 为 主 ， 主 要 是 广播 电视 节目 在 播 出 和 传输 过 程 中 节目 的 存储 成 为 可 能 。 与 此 同时 ,海量 数据 处 理 技 术 和 
的 相关 技术 性 指标 , 广播 电视 内 容 以 实时 监听 监 看 为 主 ， 分 析 技 术 的 发 展 也 能 够 满足 不 断 提 升 的 监管 业务 需求 。 
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图 1 数据 资产 管理 系统 技术 架构 图 
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就 目前 来 讲 ， 广电 监管 工作 主要 用 到 两 大 类 数据 ， 
一 类 是 对 应 广播 电视 节目 的 音 视频 文件 ， 男 一 类 是 相关 
监管 业务 数据 ， 如 广播 效果 情况 、 电 视 节 目 播 出 表 等 ， 
前 者 为 非 结 构 化 数据 ， 后 者 为 结构 化 数据 。 音 视频 文件 
的 存储 容量 已 经 达到 PB 级 ， 每 天 的 增 量 达 到 了 TB 级 ， 
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要 对 数据 进行 有 效 整 合 ， 消 除数 据 孤 岛 ， 建 立 统一 规范 
的 数据 标准 ， 形 成 对 数据 的 全 景 统计 ， 在 此 基础 上 开发 
可 视 化 数据 统计 分 析 功 能 ， 实 现 对 数据 资产 的 准确 掌握 
和 有 效 管理 ， 辅 助 建立 跨 系统 、 跨 部 门 、 跨 地 区 的 沟通 
协调 机 制 。 下 图 是 根据 上 述 需 求 形成 的 技术 架构 图 ， 上 日 


包括 了 大 部 分 的 卫星 和 有 线 广播 电视 节目 ， 由 于 存储 容 
量 已 达 极 限 ， 需 要 定期 从 存储 中 删除 旧 的 音 视 频 文 件 ， 
业务 数据 虽然 容量 只 是 GB 级 ， 但 某 些 数据 增长 快速 ， 已 
经 达到 亿 级 的 条 目 数 。 随 着 以 上 两 类 数据 的 积累 ， 对 数 
据 存储 的 扩展 性 和 安全 性 要 求 逐 渐 提 升 ， 必 须要 在 数据 
读 取 性 能 和 可 靠 性 之 间 取 得 平衡 ， 需 要 以 较 低 成 本 较 简 
单 的 操作 实现 较 高 的 并 发 访问 和 分 布 式 存储 。 此 外 ， 海 
量 数据 带 来 数据 分 析 的 需求 ,需要 新 的 技术 方案 弥补 现 
有 系统 数据 仓库 能 力 不 足 的 问题 。 最 后 ， 类 似 Oracle 这 
样 的 传统 商业 型 数据 库 虽 然 能 很 好 地 满足 关系 型 数据 管 
理 和 分 析 的 需求 , 但 使 用 成 本 较 高 ,分布 式 架构 操作 复杂 ， 
源 代码 不 开放 , 存在 数据 资产 的 安全 性 问题 。 综 上 所 述 ， 
我 们 需要 针对 音 视频 文件 和 相关 业务 数据 组 成 的 数据 资 
产 管理 需求 ， 利 用 开源 软件 社区 的 成 熟 大 数据 技术 方案 
弥补 已 有 技术 体系 的 不 足 ， 实 现 性 价 比 更 高 、 更 加 安全 
的 数据 资产 管理 系统 。 
1. 技术 架构 介绍 

各 个 监管 业务 系统 之 间 彼 此 封闭 ， 每 个 系统 内 形成 
封 财 的 回路 ， 没 有 达到 有 效 的 数据 共享 ， 因 此 ， 首 先 需 
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前 已 经 完全 实现 并 正常 运行 。 

下 面 一 层 是 原 有 的 数据 存储 系统 ， 包 括 音 视频 数据 
和 业务 数据 ， 中 间 一 层 是 以 大 数据 一 体 机 为 形式 的 新 系 
统 ， 包 括 用 于 存放 音 视频 文件 的 Hadoop 平台 和 存放 文件 
元 数据 和 业务 数据 的 MPP 数据 库 ， 基 于 这 些 数据 建立 数 
据 资产 管理 系统 ， 包 括 数据 资产 目录 、 数 据 存量 统计 、 
数据 增 量 统计 、 数 据 流量 监控 、 作 业 监 控 等 功能 ， 这 些 
功能 经 过 防火 墙 在 上 面 一 层 呈 现在 用 户 终端 上 。 

集中 存储 系统 采用 的 是 浪潮 的 Lustre 系统 ， 存 放 着 
历年 的 广播 电视 节目 音 视频 文件 ， 广 播 数 据 库 是 指 广 播 
播 出 的 技术 性 业务 数据 ， 节 目 播 出 数据 库 是 指 广播 电视 
节目 编目 数据 ， 中 间 库 是 其 他 系统 同步 过 来 的 技术 性 业 
务 数据 , 这 三 个 数据 库 均 采用 Oracle 一 体 机 , 以 RAC( Real 
Application Cluster ) 方式 进行 存储 。 以 上 两 类 数据 经 过 大 
数据 一 体 机 中 的 Hadoop 软件 和 ETL 工具， 实现 了 数据 转 
移 和 提取 ， 形 成 数据 资产 管理 系统 可 以 直接 利用 的 数据 
源 。 
2. 关键 技术 及 实现 

根据 技术 架构 的 要 求 ， 我 们 接 下 来 要 决定 采用 哪些 
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关键 技术 实现 其 中 的 数据 同步 、ETL 等 功能 。 下 图 体现 
了 不 容 软 件 模块 之 间 的 数据 流向 和 用 到 的 一 些 技术 或 产 
HHo 

集中 存储 系统 中 的 Lustre 系统 是 一 种 基于 Linux 的 
开源 分 布 式 文件 系统 , Lustre 的 最 大 特点 是 读 写 能 力 很 强 ， 
特别 是 对 于 大 文件 ， 利 用 Stripe 条 带 化 技术 实现 文件 的 并 
行 访问 ， 元 数据 服务 器 存储 文件 的 元 数据 信息 ， 对 象 存 
储 服务 器 用 于 存储 文件 ，Lustre 的 主要 问题 是 对 数据 的 保 
护 比 较 差 ， 底 层 的 对 象 存 储 结构 不 支持 数据 的 备份 和 回 
复 ， 另 外 ， 元 数据 存在 单 点 故障 的 问题 ， 采 用 了 共享 存 
储 层 支持 主 备 切换 ， 一旦 共享 存储 层 出 现 问 题 导致 元 数 
据 无 法 访问 ， 进 而 影响 整个 系统 。 我 们 选择 了 Hadoop 2.0 
来 读 取 和 存放 音 视频 文件 ，HDFS 支持 多 个 副本 在 不 同 节 
点 的 存储 , 可 以 实现 数据 的 保护 , 并 具有 数据 校 验 的 功能 ， 
文件 的 操作 虽然 不 像 Lustre 支持 POSIX 接口 ， 只 能 通过 
API 实现 ， 读 取 性 能 不 如 Lustre， 但 适合 需要 长 期 保存 的 
文件 以 及 建立 数据 仓库 。 另 外 ,HDFS 生态 环境 非常 丰富 ， 
有 很 多 强大 的 开源 框架 可 以 使 用 ， 这 一 点 要 比 Lustre 好 
很 多 。 在 这 个 项 目 中 我 们 使 用 了 2 个 管理 节点 和 20 个 数 
据 节点 ， 管 理 节点 使 用 Zookeeper 实现 平台 集群 的 负载 均 
衡 ， 数 据 节点 通过 HDFS 存放 了 数 百 TB 的 音 视 频 文件 。 

集中 存储 系统 文件 信息 读 取 的 接口 采用 MapReduce 
实现 ，MapReduce 程序 对 集中 存储 系统 的 内 容 进行 解析 ， 
提取 出 集中 存储 系统 的 音 视频 文件 的 元 数据 ， 并 完成 两 
项 任务 ， 一 是 将 音 视 频 文件 同步 到 大 数据 Hadoop 平台 
上 ; 二 是 获取 到 音 视频 文件 的 属性 信息 并 同步 到 MPP 数 
据 库 中 。 数 据 同步 管理 策略 包括 文件 同步 和 元 数据 同步 
两 个 方面 ， 元 数据 同步 每 15 分 钟 进行 一 次 ， 主 要 是 通过 
find 命令 查询 当天 日 期 目录 下 最 近 一 个 小 时 新 增 的 文件 ， 
并 将 元 数据 保存 到 数据 库 中 。 同 步 定 时 任务 通过 Linux 的 
crontab 命令 实现 ， 元 数据 抽取 的 日 志文 件 位 于 与 jar 包 同 
级 的 logs 文件 夹 里 。 文 件 同 步 每 天 晚上 0 点 进行 ， 根 据 
数据 库 中 前 一 天 的 元 数据 信息 ， 将 前 一 天 所 有 的 文件 复 
制 到 HDFS 中 ,在 主要 文件 完成 之 后 根据 文件 增加 情况 
和 同步 需求 不 定期 执行 文件 同步 。 

对 于 结构 化 数据 的 存储 我 们 采用 了 基于 MysSQL 的 
MPP ( Massively Parallel Processor ) 数据 库 ，MPP 是 大 规 
模 并 行 处 理 的 意思 ， 系 统 由 很 多 松 耦 合 处理 单 元 组 成 ， 
每 个 单元 内 的 CPU 都 有 自己 的 私有 资源 ， 在 每 个 单元 
内 都 有 操作 系统 和 管理 数据 库 的 实例 副本 。MPP 架构 数 
据 库 具 有 的 特征 是 任务 并 行 执 行 、 数 据 分 布 式 存储 、 分 
布 式 计算 、 私 有 资源 、 横 向 扩展 和 Share Nothing 架构 。 
横向 扩展 是 MPP 数据 库 的 主要 设计 目标 ，MPP 数据 库 
支持 严格 的 关系 模型 ， 比 如 SQL92、 加 扩展 、 加 存储 过 
程 ， 支 持 事务 、 保 证 数据 强 一 致 性 ， 所 解决 的 问题 包括 
提升 数据 处 理性 能 和 数据 处 理 量 。 与 各 个 节点 使 用 自己 
私有 资源 的 Shared Nothing 架构 不 同 ， 原 有 数据 库 采 用 的 
Oracle RAC 属于 Shared Disk 架构 ， 各 个 节点 使 用 自己 的 
CPU 和 内 存 ， 磁 盘存 储 共享 ， 也 就 是 数据 共享 ， 当 存储 
性 能 达到 瓶颈 时 , 增加 节点 便 不 能 获得 并 行 能 力 的 扩展 ， 
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另外 , Oracle RAC 源 代码 不 开放 , 存放 于 Oracle 一 体 机 中 ， 
这 种 一 体 机 价格 较为 昂贵 。 

MPP 数据 库 集群 共有 6 个 节点 ， 共 分 为 三 类 ， 即 管 
理 节 点 、 数 据 节 点 和 SQL 节点 。 管 理 节 点 有 2 个 ， 作 用 
是 管理 集群 内 的 其 他 节点 ， 如 提供 配置 数据 、 启 动 并 停 
止 节点 、 运 行 备份 等 ， 由 于 这 类 节点 负责 管理 其 他 节点 
的 配置 ， 应 在 启动 其 他 节点 之 前 首先 启动 这 类 节点 ， 管 
理 节点 用 命令 ndb_mgmd 启动 。 数 据 节 点 有 4 个 ， 用 于 
保存 集群 中 的 数据 , 数据 节点 的 数目 与 副本 的 数目 相关 ， 
用 命令 ndbe 启动 。SQL 节点 有 4 个 ， 用 于 访问 集群 数据 ， 
通常 SQL 节点 使 用 命令 mysqld -ndbcluster 启动 ， 或 将 
ndbcluster 添加 到 my.cnf 后 使 用 mysqld 启动 。 管 理 节点 负 
责 管 理 集群 配置 文件 和 集群 日 志 ， 集 群 中 的 每 个 节点 从 
管理 节点 检索 配置 数据 , 并 请 求 确定 管理 节点 所 在 位 置 ， 
数据 节点 内 出 现 新 的 事件 时 ， 将 关于 这 类 时 间 的 信息 传 
输 到 管理 节点 ， 然 后 将 这 类 信息 写 入 集群 日 志 。 

从 Oracle RAC 到 MPP 数据 库 的 ETL 过 程 采 用 了 开 
源 ETL 工具 Kettle，ETL 即 数据 抽取 ( Extract) 、 转 换 
(Transform ) 、 装 载 ( Load ) 的 过 程 ， 它 是 构建 数据 仓 
库 的 重要 环节 。 传 统 的 ETL 工具 有 集中 执行 、 对 服务 器 
性 能 要 求 高 等 缺点 ， 针 对 这 些 缺 点 ， 本 项 目 采 用 了 一 种 
基于 分 布 式 原理 的 ETL 技术 ， 该 系统 在 分 布 式 文件 系统 
基础 上 实现 了 集群 分 布 式 ETL 流程 。 该 分 布 式 ETL 系统 
具有 较 高 的 可 扩展 性 和 重 吐 效率 ， 同 时 能 够 自动 实现 负 
载 均衡 ， 执 行 效率 高 。 分 布 式 ETL 技术 包括 四 个 组 件 : 
Spoon 、Pan 、Chef、Kithcen。Spoon 实现 了 通过 图 形 界面 
来 设计 ETL 转换 过 程 ， 通 过 SPoon 设计 ETL 工作 的 转换 
和 作业 ， 转 换 定 义 了 ETL 抽取 地 源 、 目 标 和 抽取 规则 ， 
是 ETL 的 主体 ， 作 业 控 制 着 转换 的 执行 ，Pan 实现 了 批 
量 运 行 由 Spoon 设计 的 ETL 转换 ; Pan 是 一 个 后 台 执 行 
的 程序 ， 没 有 图 形 界面 ，Chef 可 以 创建 任务 ， 任 务 通过 
允许 每 个 转换 、 任 务 、 脚 本 等 ,更 有 利于 自动 化 更 新 数 
据 仓 库 的 复杂 工作 ， 任 务 将 会 被 检查 ， 看 看 是 否 正确 地 
运行 了 ; Kitchen 允许 你 批量 使 用 CHEF 设计 的 任务 ， 例 
如 使 用 一 个 时 间 调 度 器 ，Kitchen 也 是 一 个 后 台 运 行 的 程 
序 。 分 布 式 ETL 集群 共有 8 个 节点 ，2 个 主 节点 和 6 个 
从 节点 。 
结语 

以 上 我 们 从 业务 发 展 的 需要 出 发 ， 介 绍 了 数据 资产 
管理 系统 的 技术 架构 和 关键 技术 ， 以 及 一 些 具体 的 实现 
方式 , 经 过 这 个 项 目 , 音 视频 和 业务 数据 资源 得 到 了 整合 ， 
数据 存储 容量 更 大 并 且 更 加 安全 ， 而 且 易于 扩展 ， 为 进 
一 步 的 数据 挖掘 工作 黄 定 了 良好 的 基础 。 随 着 大 数据 开 
源 软件 社区 新 的 成 熟 项 目 不 断 出 现 ， 数 据 资产 管理 系统 
可 以 充分 融合 新 的 工具 实现 功能 的 不 断 增 加 。 昌 


(作者 单位 : 国家 广播 电视 总 局 监测 数据 处 理 中 心 ) 
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